我们提出了Boareskinnet,这是一种新颖的方法,可以同时去除面部图像的化妆和照明影响。我们的方法利用3D形态模型,不需要参考干净的面部图像或指定的光条件。通过结合3D面重建的过程,我们可以轻松获得3D几何和粗3D纹理。使用此信息,我们可以通过图像翻译网络推断出归一化的3D面纹理图(扩散,正常,粗糙和镜面)。因此,没有不良信息的重建3D面部纹理将显着受益于随后的过程,例如重新照明或重新制作。在实验中,我们表明Bareskinnet优于最先进的化妆方法。此外,我们的方法有助于卸妆以生成一致的高保真纹理图,这使其可扩展到许多现实的面部生成应用。它还可以在相应的3D数据之前和之后自动构建面部化妆图像的图形资产。这将有助于艺术家加速他们的作品,例如3D Makeup Avatar创作。
translated by 谷歌翻译
Diffusion models have emerged as a powerful tool for point cloud generation. A key component that drives the impressive performance for generating high-quality samples from noise is iteratively denoise for thousands of steps. While beneficial, the complexity of learning steps has limited its applications to many 3D real-world. To address this limitation, we propose Point Straight Flow (PSF), a model that exhibits impressive performance using one step. Our idea is based on the reformulation of the standard diffusion model, which optimizes the curvy learning trajectory into a straight path. Further, we develop a distillation strategy to shorten the straight path into one step without a performance loss, enabling applications to 3D real-world with latency constraints. We perform evaluations on multiple 3D tasks and find that our PSF performs comparably to the standard diffusion model, outperforming other efficient 3D point cloud generation methods. On real-world applications such as point cloud completion and training-free text-guided generation in a low-latency setup, PSF performs favorably.
translated by 谷歌翻译
我们提出了整流的流程,这是一种令人惊讶的简单学习方法(神经)的普通微分方程(ODE)模型,用于在两个经验观察到的分布\ pi_0和\ pi_1之间运输,因此为生成建模和域转移提供了统一的解决方案,以及其他各种任务。涉及分配运输。整流流的想法是学习ode,以遵循尽可能多的连接从\ pi_0和\ pi_1的直径。这是通过解决直接的非线性最小二乘优化问题来实现的,该问题可以轻松地缩放到大型模型,而无需在标准监督学习之外引入额外的参数。直径是特殊的,因此是特殊的,因为它们是两个点之间的最短路径,并且可以精确模拟而无需时间离散,因此可以在计算上产生高效的模型。我们表明,从数据(称为整流)中学习的整流流的过程将\ pi_0和\ pi_1的任意耦合转变为新的确定性耦合,并证明是非侵入的凸面运输成本。此外,递归应用矫正使我们能够获得具有越来越直的路径的流动序列,可以在推理阶段进行粗略的时间离散化来准确地模拟。在实证研究中,我们表明,整流流对图像产生,图像到图像翻译和域的适应性表现出色。特别是,在图像生成和翻译上,我们的方法几乎产生了几乎直流的流,即使是单个Euler离散步骤,也会产生高质量的结果。
translated by 谷歌翻译
基于AI的分子生成为大量生物医学科学和工程(例如抗体设计,水解酶工程或疫苗开发)提供了一种有希望的方法。由于分子受物理定律的管辖,所以关键的挑战是将先前的信息纳入训练程序中,以产生高质量和现实的分子。我们提出了一种简单而新颖的方法,以引导基于扩散的生成模型培训具有物理和统计的先验信息。这是通过构建物理知情的扩散桥,即保证在固定末端产生给定观察的随机过程来实现的。我们开发了一种基于Lyapunov函数的方法来构建和确定桥梁,并提出了许多有关高质量分子生成和均匀性促进的3D点云生成的信息丰富的先验桥的建议。通过全面的实验,我们表明我们的方法为3D生成任务提供了强大的方法,从而产生具有更好质量和稳定性得分的分子结构,并且具有更高质量的分布点云。
translated by 谷歌翻译
基于扩散的生成模型最近取得了令人鼓舞的结果,但在概念理解,理论分析,算法改进和扩展到离散,结构化的,非欧盟域的扩展方面提出了一系列开放问题。这项工作试图重新研究整体框架,以获得更好的理论理解并为来自任意域的数据开发算法扩展。通过将扩散模型视为具有未观察到扩散轨迹的潜在变量模型,并应用最大的似然估计(MLE),并用辅助分布估算的潜在轨迹,我们表明,潜在轨迹的模型构建和插入的潜在轨迹构成了构建扩散桥的过程,从而实现了扩散桥梁的过程终点的确定性价值和约束,为此我们提供了系统的研究和一套工具。利用我们的框架,我们提出了1)对学习扩散生成模型的第一个理论错误分析,以及2)一种简单而统一的方法,用于从不同离散和受限域中学习数据。实验表明,我们的方法在生成图像,语义片段和3D点云方面表现出色。
translated by 谷歌翻译
我们提出了离散的Langevin提案(DLP),这是一种简单且可扩展的基于梯度的建议,用于对复杂的高维离散分布进行采样。与基于Gibbs采样的方法相反,DLP能够单个步骤并行更新所有坐标,并且更改的幅度由步骤尺寸控制。这允许在高维且密切相关的变量的空间中进行廉价,有效的探索。我们通过证明其固定分布的渐近偏置对于对数季度分布而言是零,并且对于接近对数季度的分布而言,我们证明了DLP的效率为零。使用DLP,我们开发了几种采样算法的变体,包括未经调整的,大都市调整后的,随机和预处理版本。DLP在各种任务上都优于许多受欢迎的替代方案,包括ISING模型,受限的Boltzmann机器,基于深层的基于能量的模型,二进制神经网络和语言生成。
translated by 谷歌翻译
积极的学习有效地收集了无标记的数据以进行注释,从而减少了对标记数据的需求。在这项工作中,我们建议以局部灵敏度和硬度感知的获取功能检索未标记的样品。所提出的方法通过局部扰动生成数据副本,并选择其预测可能性与其副本最大的数据点。我们通过注入选择的情况扰动来进一步增强我们的采集功能。我们的方法可以在各种分类任务中对常用的活跃学习策略获得一致的收益。此外,我们在基于迅速的几次学习中迅速选择的研究中观察到对基准的持续改进。这些实验表明,我们以局部敏感性和硬度为指导的获取对许多NLP任务都是有效和有益的。
translated by 谷歌翻译
生成自然语言指令的图像是一个有趣但高度挑战的任务。我们通过将reverting剪辑表示与现成的图像发生器(GAN)的功率组合来实现文本到图像生成,在GaN的潜在空间中优化,找到与给定输入文本实现最大剪辑分数的图像。与传统方法相比,从划痕开始从文本到图像培训生成模型,剪辑+ GaN方法是无训练,零射击,可以用不同的发电机轻松定制。然而,在GaN空间中优化剪辑得分投射了一个高度挑战的优化问题,以及诸如ADAM的现成优化器,不能产生满足结果。在这项工作中,我们提出了一个FusedReam管道,它通过三个关键技术改进了剪辑+ GaN方法:1)通过在图像上引入随机增强来强制剪辑目标的Augclip分数。 2)优化的新颖初始化和过参数化策略,允许我们有效地导航GaN空间中的非凸景观。 3)通过利用新型双级优化制剂的组合生成技术,可以构成多个图像以扩展GaN空间并克服数据偏置。当由不同的输入文本推广时,FusedReam可以产生具有不同对象,背景,艺术风格的高质量图像,甚至没有出现在我们使用的GaN的训练数据中的新的反事概念。定量地,由FusedReam生成的图像在MS Coco DataSet上产生顶级初始成绩和FID分数,而无需额外的架构设计或培训。我们的代码公开可用于\ url {https:/github.com/gnobitab/fusedream}。
translated by 谷歌翻译
Learning monotonic models with respect to a subset of the inputs is a desirable feature to effectively address the fairness, interpretability, and generalization issues in practice. Existing methods for learning monotonic neural networks either require specifically designed model structures to ensure monotonicity, which can be too restrictive/complicated, or enforce monotonicity by adjusting the learning process, which cannot provably guarantee the learned model is monotonic on selected features. In this work, we propose to certify the monotonicity of the general piece-wise linear neural networks by solving a mixed integer linear programming problem.This provides a new general approach for learning monotonic neural networks with arbitrary model structures. Our method allows us to train neural networks with heuristic monotonicity regularizations, and we can gradually increase the regularization magnitude until the learned network is certified monotonic. Compared to prior works, our approach does not require human-designed constraints on the weight space and also yields more accurate approximation. Empirical studies on various datasets demonstrate the efficiency of our approach over the state-of-the-art methods, such as Deep Lattice Networks.
translated by 谷歌翻译
Conventional unsupervised domain adaptation (UDA) assumes that training data are sampled from a single domain. This neglects the more practical scenario where training data are collected from multiple sources, requiring multi-source domain adaptation. We make three major contributions towards addressing this problem. First, we collect and annotate by far the largest UDA dataset, called DomainNet, which contains six domains and about 0.6 million images distributed among 345 categories, addressing the gap in data availability for multi-source UDA research. Second, we propose a new deep learning approach, Moment Matching for Multi-Source Domain Adaptation (M 3 SDA), which aims to transfer knowledge learned from multiple labeled source domains to an unlabeled target domain by dynamically aligning moments of their feature distributions. Third, we provide new theoretical insights specifically for moment matching approaches in both single and multiple source domain adaptation. Extensive experiments are conducted to demonstrate the power of our new dataset in benchmarking state-of-the-art multi-source domain adaptation methods, as well as the advantage of our proposed model. Dataset and Code are available at http://ai.bu.edu/M3SDA/
translated by 谷歌翻译